Day21: Evaluating the correctness evaluator

17th鐵人賽

114 瀏覽

Situation

我們昨天 Day20: Structured Output 初驗！五大選手比拚結果使用 normalized_exact_match 初驗了各選手的結果
並且我們在 Day19: evaluator in llama-index 探索了三種基於模型的驗證方法
- Semantic Similarity Evaluator: 驗證 response 與 reference_answer 的相似性
- Correctness Evaluator: 給定 query, response 與 reference_answer，要求 llm 判斷答案正確性
- Faithfulness Evaluator: 給定 response 與 reference_context，要求 llm 判斷 response 是否有忠於 reference_context
我們今天來實測看看 Correctness Evaluator 靠不靠譜吧！
- 註：如果你第一次點進來，想要了解到目前為止都做了什麼
- 可以從 Day16: Pydantic 與 Structured Output 開始

今天的任務主要有 3 件事：
- 1. 使用 Correctness Evaluator 驗證 2_llama_zh 的預測結果
- 1. 比較 Correctness Evaluator 與 normalized exact match 的結果
- 1. 提升 Correctness Evaluator: 藉由調整 Prompt

那我們就開始吧！

我們使用 gpt-5-mini 作為 CorrectnessEvaluator 的 llm
CorrectnessEvaluator 的 input 有 3 個：
- query:
  - 當初要求 llm 執行的任務，包含要求提取的原始文本
    - 這邊可以確實描述任務即可，不一定需要原始的 prompt
- reference(answer):
  - (相對)正確的答案
    - 比如在有些 case 下可以放 gpt 的答案
    - 我們這邊是放使用 regex 提取的答案
- response:
  - 待驗證的模型 respose
CorrectnessEvaluator 依據 default prompt 的要求會輸出：
- 一個 0-5 的 score，越高越對
- 一個 feedback 描述為什麼這樣評分
我們的範例輸出結果在：這裡

這邊要先說明一下，我們昨天在使用 exact match 評估的時候，只有比較題幹的部分
我們今天直接評估整個單選題的結果，因此預期是 correctness evaluator 會抓出比 exact match 更多的錯誤結果
此外，由於 correctness 整體的評分結果是從滿分(5分)開始，一個瑕疵就給 4 分，兩個瑕疵就給 3分依此類推
- 除非是重大瑕疵會直接給到最低分 1 分
- 由於我們是提取的任務，有一點小瑕疵對我們來說可能就是重大瑕疵，因此我們拉高了 threshold ，只要 correctness 沒有給出滿分 5 分，這題我們就算沒有 pass
  - 同時這也反映了我們最初的觀察，除分是重大瑕疵，否則 llm 的評價偏向給高分
整體來說，在 80 題的評估內，
- correctness evaluator 與 normalized exact match 一致的有 69 題
- 人工評估後，有 6 題是 correctness 額外抓出了除了題幹以外的提取問題，不應算錯
  - 包含題幹對，選項錯
  - 或者是類似把選項額外提取了 ABCD 等字
- 有 4 題是 False Negative，應該判定為有問題，而 correctness 判定為無問題
  - 但部分 feedback 有講出問題(qid提取錯)，但是他覺得無所謂所以還是給 5 分
    - 這個問題也許可以靠 prompt 修正
- 以準確率來判定的話， correctness evaluator 有 0.9375 的準確率在我們的問題集上
詳細結果在: 這裡

調整 correctness_evaluator prompt 的方法是:

correct_evaluator = CorrectnessEvaluator(llm = llm, score_threshold=4.0, eval_template=chat_template)

我們今天實際比較了 Correctness Evaluator 與 normalized_exact_match 的結果
- 在我們的 toy problem 上，Correctness Evaluator 預設初始結果有 93 % 的準確率
我們進一步的藉由客製 prompt 想要提升這個結果
- 由於修改為中文 prompt 的關係，預設的 feedback 也變成了中文
  - ~~這對中文母語開發者是一個相當重要的特性~~
- 我們藉由拉高 threshold 想要做到 Recall 100 %
  - 但是最終仍有 1 題其實有錯但卻通過了驗證
- 最終的 evaluator 的準確率達到 95 %
  - 但裡面只有 1 題是真正繞不開的錯誤
整體而言使用 llm 針對結果進行驗證
- 雖然有一定的準確率，但也不能保證把所有錯誤都抓出來
- 但若是以更了解我們的預測結果作為目的來說
  - llm 自帶的 feedback 功能可以提供相當多的參考
    - 比如以今天的實測來說，它提供了很多原本根本沒想到的問題
我們明天來評估看看 Semantic Similarity Evaluator 的結果